日前參加了 The Modeling Agency 舉辦的
Data Analytics Boot Camp,算是一個小型的 workshop,由資深的 Data Analytics Consultant 主持,除了主講者本身的經驗談之外,也讓各行各業使用 Data Mining 的參與者一起分享彼此的經驗。
之前報名舊金山的場次因故無法成行,這次改參加 Washington DC 的場次,主持人
Tony Rathburn 算是業界小有名氣的資深顧問與講師,在 Data Mining Research 上有
關於他的訪談。
Tony Rathburn 其實是他撰寫部落格的「藝名」,在兩天的座談裡,Tony 分享了他二十多年來做為資訊系統與資料探勘顧問的一些心得,以及在各個行業裡要應用這種工具所需要注意的要點。從大學教授轉戰業界,Tony 的見解相當獨到,而對於他沒有經歷過的領域(就是小弟向他請益的部份),所提出的建議也非常實用。
兩天的討論內容,當然不太可能短短的篇幅裡道盡細節,不過有幾個個人覺得蠻重要的觀念,倒是可以先摘要出來,以後再慢慢細述。
- Data Analytics 的作用,是利用收集到的資料以及設計出的分析工具,來針對決策做出輔助,真正的目的在於「提高決策的效益」。
- Data Analytics 專案的重點,會在於對整個決策歷程、所涉及的商業模式以及績效指標的理解,使用的分析與資料工具反而是次要的。
- 善用對專案所欲解決問題的理解,盡可能的把解決方案設計成直接與績效指標相關的 binary classification,退而求其次是 multi-label classification,真的萬不得已才使用回歸預報的方式。(個人過去的專案經驗當中對此也有深深的同感,Tony 的說法是「因為我懶惰」,但是實則有更深刻的數學理由,有機會以後再討論)
- 區分 Big Data 和 Fat Data 的不同:對於大多數的現實問題,Big Data 只能提高準確率(而且很有限),Fat Data 才能針對問題找出更多的洞見。(之前摘錄的一篇「大資料與小資料」中的引文也有探討類似的問題)
這些觀念都伴隨著許許多多的實例討論,包括來自 JP Morgan Chase 的毛先生分享金融商品交易的技術。
因為這次舉行的地點是在美國首都,所以有一半的與會成員是美國人事行政局的員工,包含資訊與專案規劃的人員,他們對於每年哪些公務員會退休的預測有很大的興趣,因為這會牽涉到整個人事行政策略的全盤規劃。年底還有一次在 Las Vegas 舉辦的座談會,不知道會不會有賭場的代表參加呢?我個人倒是對這個蠻有興趣的。
總之,覺得參加這個座談會的收穫頗為豐富,只是為了這個要跑一趟美國實在有點累,只好等下次有長假時再看看有沒有機會了。